生成式建模導論:超越分類的範疇
我們正從判別式建模轉向,這種方法透過學習條件機率 $P(y|x)$ 來解決分類與迴歸問題,進而進入更複雜的生成式建模領域。現在我們的核心目標轉變為密度估計:學習訓練資料 $X$ 所源自的完整基礎資料分布 $P(x)$。此根本性的轉變使我們能捕捉高維資料集內錯綜複雜的依賴關係與結構,不再僅止於邊界區分,而是真正理解資料並進行創造性合成。
1. 生成式的目標:建模 $P(x)$
生成式模型的目標是估算訓練資料 $X$ 所源自的機率分布 $P(x)$。一個成功的生成式模型可執行三大關鍵任務:(1) 密度估計(為輸入 $x$ 分配機率分數),(2) 抽樣(產生全新的資料點 $x_{new} \sim P(x)$),以及 (3) 無監督特徵學習(在潛在空間中發現有意義且解耦的表示)。
2. 分類:顯式與隱式似然
生成式模型的根本區分在於其對似然函數的處理方式。顯式密度模型,例如變分自編碼器(VAEs)與流模型,會定義數學上的似然函數,並試圖最大化它(或其下界)。隱式密度模型,最著名的例子是生成對抗網路(GANs)則完全跳過似然計算,改以對抗訓練框架學習一個映射函數,從分布 $P(x)$ 中抽樣。
問題 1
在生成式建模中,主要關注的機率分布是什麼?
問題 2
哪種生成式模型依賴對抗訓練,並避免定義明確的似然函數?
挑戰:異常偵測
利用密度估計
一家金融機構已使用數百萬筆合法交易記錄訓練了一個顯式密度生成模型 $G$。一筆新交易 $x_{new}$ 到達。
目標:判斷 $x_{new}$ 是否為異常(詐欺)。
目標:判斷 $x_{new}$ 是否為異常(詐欺)。
步驟 1
根據 $P(x)$ 的密度估計,要將 $x_{new}$ 識別為異常,必須評估哪項統計指標?
解答:
模型必須評估機率(或似然)$P(x_{new})$。若 $P(x_{new})$ 低於預先設定的門檻值 $\tau$,表示該新點在正常交易的學習分布下統計上極不可能出現,便會被標記為異常。
模型必須評估機率(或似然)$P(x_{new})$。若 $P(x_{new})$ 低於預先設定的門檻值 $\tau$,表示該新點在正常交易的學習分布下統計上極不可能出現,便會被標記為異常。